[Day 23] Bing Image Creator 使用介紹與結合 ChatGPT 的組合技

2023 iThome 鐵人賽

DAY 23

AI & Data

圖像生成 AI 的原理與應用系列第 23 篇

15th鐵人賽 bing image creator dall·e 2 圖像生成

hard_fish

2023-10-02 22:46:27

1465 瀏覽

分享至

今天也會是比較輕鬆的內容～我們要開始用文字生成影像服務來產生影像了！

由於 DALL·E 2 必須付費才能使用，所以今天介紹的會是串接 DALL·E 2 模型的 Bing Image Creator，也會嘗試不同提示詞（prompt）對於影像生成的效果。

基本使用

Bing Image Creator 只要有 Microsoft 帳號即可使用，在登入之後應該就可以看到以下畫面：

在「探索構想」的頁籤已經提供一些效果不錯的生成影像範例和他們對應的 prompt，例如將滑鼠移到彩色蝴蝶的影像，就可以看到用來生成這張影像的 prompt 是 "A butterfly with rainbow wings landing on a flower"（如下圖）

而在「創作」的頁籤就可以直接輸入 prompt，按下「建立」即可產生影像。如果還想不到要輸入什麼樣的 prompt，可以先嘗試範例的 "A butterfly with rainbow wings landing on a flower"，產生影像約需等待 1 分鐘～

噠啦～以下就是生成影像的結果，Bing Image Creator 一次會產生四張圖，解析度都是 1024x1024 無法調整。值得注意的是，雖然我們輸入和範例一模一樣的 prompt，但模型因為隨機性的關係並不會產生一模一樣的圖，每一次都是重新創作

而右側的欄位會保留我們最近生成影像的結果，不過保留的結果有限，如果有覺得滿意的影像還是要盡早存下～

點擊個別一張圖片，就會有它的相關資訊，可以選擇以連結的方式分享，也可以儲存到 Microsoft Bing 的空間，或直接下載到本機～

Bing Image Creator 產生的影像固定為方形，是應用上沒那麼便利的地方。其實 DALL·E 2 有提供將原本方形的影像擴展成其他長寬比的影像，不過這就有待有心人付費解鎖了

中英文提示詞差異

DALL·E 2 的訓練資料雖然包含不同語言，但推測還是以英文居多，可能用英文的提示詞產生影像的效果會比較好。在這裡我們可以做個簡單的實測～

在這裡，我嘗試讓 Bing Image Creator 用中文和英文意義相同的 prompt 分別產生影像～
英文：A chubby cat lay on the grass
中文：一隻躺在草地上的圓胖的貓

一起來看看結果吧！

英文 prompt "A chubby cat lay on the grass" 產生影像結果（共嘗試產生影像三次）：

中文 prompt「一隻躺在草地上的圓胖的貓」產生影像結果：

從目前的測試來說，使用中英文 prompt 產生影像的效果都是不錯的（不過它們都還是簡單的 prompt），不過英文 prompt 得到的貓咪影像似乎有比較高的機率得到類似卡通圖的結果，而使用中文 prompt 得到的貓咪影像就比較接近照片。也許，不同語言描述同樣的物件或場景時，模型預設要畫的風格會有所不同，這是今天的測試觀察到比較有趣的地方～

組合技－利用 ChatGPT 產生合適的 prompt

如果不太會寫 prompt 怎麼辦呢？之前我在曾吉弘博士的生成式工具講座聽到一個不錯的想法，那就是用文字生成工具 ChatGPT 幫你產生適合的 prompt！

這裡，我想嘗試用 Bing Image Creator 產生一些書中描寫的場景～

首先，我從喜歡的散文中選擇了一段場景描寫的文字：
「遠遠就看到出口處的向日葵，正對著剛剛走出花之都公園的我們。更遠處的灑水器潑灑著水花，戀人絮語一般落在花田間，輝煌而短暫的流星雨，吸引所有人的注意。」
－－林達陽《恆溫行李》

直接輸入這段文字，得到的生成影像是這樣的：

而我們可以用以下的方式，讓 ChatGPT 將文字轉換為適合輸入給 DALL·E 的 prompt：

再將產生的英文 prompt 輸入到 Bing Image Creator，得到的結果如下：

從以上的結果可以注意到，如果輸入的文字比較複雜，產生的影像可能就會包含一些看似相關但又不太成形的文字。除此之外，在原文中流星雨似乎是在比喻灑水器潑灑出的水花，直接輸入中文時模型就產生流星雨的場景，而轉換成英文 prompt 得到的影像就是花田灑水的景象。因此，使用轉換後的英文 prompt 產生的影像似乎比較精確一點～

不過由於這個比喻並沒有很明顯，本來就容易造成模型的誤導，所以在生成模型時，用明確的描述代替隱喻應該會更能產生精確的影像～